# -*- coding: utf-8 -*-
"""
Created on Tue Jun 24 19:34:43 2025

@author: ZRK
"""
import numpy as np

# 模拟一个数据挖掘中的数据预处理场景
print("=== 数据预处理案例 ===")

# 1. 生成模拟数据（包含缺失值和异常值）
np.random.seed(42)
raw_data = np.random.normal(50, 15, (1000, 4))  # 正态分布数据


missing_indices = np.random.choice(1000, 50, replace=False)
raw_data[missing_indices, 0] = np.nan